In this paper, we view a policy or plan as a transition system over a space of information states that reflect a robot's or other observer's perspective based on limited sensing, memory, computation, and actuation. Regardless of whether policies are obtained by learning algorithms, planning algorithms, or human insight, we want to know the limits of feasibility for given robot hardware and tasks. Toward the quest to find the best policies, we establish in a general setting that minimal information transition systems (ITSs) exist up to reasonable equivalence assumptions, and are unique under some general conditions. We then apply the theory to generate new insights into several problems, including optimal sensor fusion/filtering, solving basic planning tasks, and finding minimal representations for feasible policies.
translated by 谷歌翻译
给定一个Polygon $ W $,将深度传感器放置在$ w $内部$ p =(x,y)$的深度传感器,并向方向定向$ \ theta $测量距离$ d = h(x,x,y,\ theta)$ $ p $和$ w $边界上的最接近点之间的射线散发出$ p $ in Doriess $ \ theta $。我们研究以下问题:给出一个多边形$ w $,可能带有漏洞,带有$ n $顶点,使其进行预处理,以便给定查询实际值$ d \ geq 0 $,一个人可以有效地计算preimage $ h^{ - 1}(d)$,即确定放置在$ w $中的深度传感器的所有可能的姿势(位置和方向),这些传感器将产生读取$ d $。我们采用$ w \ times s^1 $的分解,这是著名的梯形分解的延伸,我们称之为旋转梯形分解并呈现有效的数据结构,并以相对于输出敏感的方式计算出预先映射的数据结构这种分解:如果分解的$ k $单元有助于最终结果,我们将以$ O(k+1)$ time报告它们,之后$ O(n^2 \ log n)$ preadocessing时间并使用$ o (n^2)$存储空间。我们还分析了预映射到多边形$ w $的形状;该投影描述了传感器可以放置的$ W $的部分。此外,我们获得了更有用的情况(缩小可能的姿势集)的类似结果,其中传感器从同一点$ p $,一个方向$ \ theta $进行两个深度测量,另一个朝向方向$ \ \ \ \ \ \ theta+\ pi $。虽然机器人技术中的本地化问题通常是通过探索放置在环境固定点的传感器的完整可见性多边形来实现的,但我们在这里提出的方法仅需少量的深度测量,这是有利的,因为它允许,这是有利的用于使用廉价的传感器,也可能导致存储和通信成本节省。
translated by 谷歌翻译
在本文中,我们介绍了基于差异驱动器快照机器人和模拟的用户研究的基于倾斜的控制的实现,目的是将相同的功能带入真正的远程介绍机器人。参与者使用平衡板来控制机器人,并通过头部安装的显示器查看了虚拟环境。使用平衡板作为控制装置的主要动机源于虚拟现实(VR)疾病;即使是您自己的身体与屏幕上看到的动作相匹配的小动作也降低了视力和前庭器官之间的感觉冲突,这是大多数关于VR疾病发作的理论的核心。为了检验平衡委员会作为控制方法的假设比使用操纵杆要少可恶意,我们设计了一个用户研究(n = 32,15名女性),参与者在虚拟环境中驾驶模拟差异驱动器机器人, Nintendo Wii平衡板或操纵杆。但是,我们的预注册的主要假设不得到支持。操纵杆并没有使参与者引起更多的VR疾病,而委员会在统计学上的主观和客观性上都更加难以使用。分析开放式问题表明这些结果可能是有联系的,这意味着使用的困难似乎会影响疾病。即使在测试之前的无限训练时间也没有像熟悉的操纵杆那样容易使用。因此,使董事会更易于使用是启用其潜力的关键。我们为这个目标提供了一些可能性。
translated by 谷歌翻译
我们提出了五个基本的认知科学基本宗旨,我们在相关文献中认真地将其确定为该哲学的主要基本原则。然后,我们开发一个数学框架来讨论符合这些颁布宗旨的认知系统(人造和自然)。特别是我们注意,我们的数学建模并不将内容符号表示形式归因于代理商,并且代理商的大脑,身体和环境的建模方式使它们成为更大整体的不可分割的一部分。目的是为认知创造数学基础,该基础符合颁布主义。我们看到这样做的两个主要好处:(1)它使计算机科学家,AI研究人员,机器人主义者,认知科学家和心理学家更容易获得颁发的思想,并且(2)它为哲学家提供了一种可以使用的数学工具,可以使用它澄清他们的观念并帮助他们的辩论。我们的主要概念是一种感觉运动系统,这是过渡系统研究概念的特殊情况。我们还考虑了相关的概念,例如标记的过渡系统和确定性自动机。我们分析了一个名为“足够的概念”,并表明它是“从颁布主义的角度来看”中“认知数学数学”中基础概念的一个很好的候选者。我们通过证明对最小的完善(在某种意义上与生物体对环境的最佳调整相对应)的独特定理来证明其重要性,并证明充分性与已知的概念相对应,例如足够的历史信息空间。然后,我们开发其他相关概念,例如不足程度,普遍覆盖,等级制度,战略充足。最后,我们将其全部绑架到颁布的宗旨。
translated by 谷歌翻译
本文考虑了使用户能够修改远程介绍机器人的路径的问题。该机器人能够自动导航到用户预定的目标,但是用户可能仍然希望修改路径,例如,远离其他人,或者更靠近她想在途中看到的地标。我们提出了人类影响的动态窗口方法(HI-DWA),这是一种基于动态窗口方法(DWA)的远程置换机器人的共享控制方法,该方法允许用户影响给予机器人的控制输入。为了验证所提出的方法,我们在虚拟现实(VR)中进行了用户研究(n = 32),以将HI-DWA与自主导航和手动控制之间的切换进行比较,以控制在虚拟环境中移动的模拟远程机器人。结果表明,用户使用HI-DWA控制器更快地实现了目标,并发现更容易使用。两种方法之间的偏好平均分配。定性分析表明,首选两种模式之间切换的参与者的主要原因是控制感。我们还分析了不同输入方法,操纵杆和手势,对偏好和感知工作量的影响。
translated by 谷歌翻译
本文介绍了基于可见性的移动机器人的\传感器\的数学模型。提供类似于针对计算机视觉的针孔摄像机模型的目的,介绍的模型有望提供有用的,理想化的与任务相关信息的特征,可以从其输出或观察值中推断出来。可能的任务包括当在未知环境中部署移动机器人时导航,本地化和映射。这些模型可以在传统的深度传感器之间进行直接比较,并突出显示触摸传感可能与飞行时间或视觉传感器互换的案例,并表征触摸传感提供的独特优势。这些模型包括接触检测,压缩,负载轴承和挠度。该结果可以作为移动机器人传感器融合系统创新触摸传感器设计的基本构建块。
translated by 谷歌翻译
我们建议展开沉浸式远程呈现机器人的用户所经历的轮换,以改善用户的舒适度并减少VR疾病。通过沉浸式远程呈现,我们指的是移动机器人顶部的360 \ TextDegree〜相机的情况将视频和音频流入遥远用户遥远的远程用户佩戴的头戴式展示中。因此,它使得用户能够在机器人的位置处存在,通过转动头部并与机器人附近的人进行通信。通过展开相机框架的旋转,当机器人旋转时,用户的观点不会改变。用户只能通过在其本地设置中物理旋转来改变她的观点;由于没有相应的前庭刺激的视觉旋转是VR疾病的主要来源,预计用户的物理旋转将减少VR疾病。我们实现了展开遍历虚拟环境的模拟机器人的旋转,并将用户学习(n = 34)进行比较,将展开旋转与机器人转弯时的ViewPoint转向。我们的研究结果表明,用户发现更优选且舒适的展开转动,并降低了他们的VR疾病水平。我们还进一步提出了关于用户路径集成功能,观看方向和机器人速度和距离的主观观察到模拟人员和对象的结果。
translated by 谷歌翻译
Image-text multimodal representation learning aligns data across modalities and enables important medical applications, e.g., image classification, visual grounding, and cross-modal retrieval. In this work, we establish a connection between multimodal representation learning and multiple instance learning. Based on this connection, we propose a generic framework for constructing permutation-invariant score functions with many existing multimodal representation learning approaches as special cases. Furthermore, we use the framework to derive a novel contrastive learning approach and demonstrate that our method achieves state-of-the-art results on a number of downstream tasks.
translated by 谷歌翻译
Manually analyzing spermatozoa is a tremendous task for biologists due to the many fast-moving spermatozoa, causing inconsistencies in the quality of the assessments. Therefore, computer-assisted sperm analysis (CASA) has become a popular solution. Despite this, more data is needed to train supervised machine learning approaches in order to improve accuracy and reliability. In this regard, we provide a dataset called VISEM-Tracking with 20 video recordings of 30s of spermatozoa with manually annotated bounding-box coordinates and a set of sperm characteristics analyzed by experts in the domain. VISEM-Tracking is an extension of the previously published VISEM dataset. In addition to the annotated data, we provide unlabeled video clips for easy-to-use access and analysis of the data. As part of this paper, we present baseline sperm detection performances using the YOLOv5 deep learning model trained on the VISEM-Tracking dataset. As a result, the dataset can be used to train complex deep-learning models to analyze spermatozoa. The dataset is publicly available at https://zenodo.org/record/7293726.
translated by 谷歌翻译
Head and neck cancers are the fifth most common cancer worldwide, and recently, analysis of Positron Emission Tomography (PET) and Computed Tomography (CT) images has been proposed to identify patients with a prognosis. Even though the results look promising, more research is needed to further validate and improve the results. This paper presents the work done by team MLC for the 2022 version of the HECKTOR grand challenge held at MICCAI 2022. For Task 1, the automatic segmentation task, our approach was, in contrast to earlier solutions using 3D segmentation, to keep it as simple as possible using a 2D model, analyzing every slice as a standalone image. In addition, we were interested in understanding how different modalities influence the results. We proposed two approaches; one using only the CT scans to make predictions and another using a combination of the CT and PET scans. For Task 2, the prediction of recurrence-free survival, we first proposed two approaches, one where we only use patient data and one where we combined the patient data with segmentations from the image model. For the prediction of the first two approaches, we used Random Forest. In our third approach, we combined patient data and image data using XGBoost. Low kidney function might worsen cancer prognosis. In this approach, we therefore estimated the kidney function of the patients and included it as a feature. Overall, we conclude that our simple methods were not able to compete with the highest-ranking submissions, but we still obtained reasonably good scores. We also got interesting insights into how the combination of different modalities can influence the segmentation and predictions.
translated by 谷歌翻译